Destilación on-policy con guía de trayectorias futuras Mejora el razonamiento de LLMs con TOPD: destilación on-policy con guía futura aumenta precisión del 47.8% al 52.2%. 2026-06-02 · 2 min